max rank | avg. rank | sentence |
---|---|---|
189 | 94.8333 | C'est pour cela que j'ai dit tout cela contre lui. |
215 | 60.1000 | Il n'était jamais tout à fait à sa place. |
285 | 181.2500 | Le premier tour aura lieu dimanche 20 mars. |
334 | 128.0000 | Il faut mettre le travail en place dans notre société. |
339 | 74.2000 | Ce qui ne fait pas les affaires de l'Etat. |
348 | 151.8000 | Pour elle, le grand jour c'était lundi 11 février. |
348 | 123.4348 | En septembre, du lundi au vendredi de 11 heures à 18 heures, le samedi et le dimanche de 14 heures à 18 heures. |
348 | 144.4615 | Pour cette dernière, elle aura lieu le dimanche à partir de 11 heures. |
353 | 131.6000 | Dans leur nouvelle vie, ils ont eu de nombreux enfants. |
358 | 132.8889 | De tout cela il n'est désormais plus question. |
361 | 114.8889 | Mais tout cela, aujourd'hui, c'est du passé. |
365 | 95.1111 | Et pour nous, c'est le Conseil de sécurité. |
367 | 125.2000 | C'était un tout petit pas dans la bonne direction. |
368 | 103.3000 | C'est sans doute ce qui a fait son succès. |
369 | 118.6667 | Et nous sommes toujours de plus en plus nombreux. |
397 | 106.6000 | C'est l'après-midi, ils ne sont pas très nombreux. |
404 | 93.0000 | Les Etats-Unis et l'Europe ne sont pas encore sur la même ligne. |
405 | 120.9091 | Ce n'est plus un parti, si ce le fut jamais. |
407 | 160.0000 | Tout s'était si bien passé jusqu'alors. |
412 | 112.2727 | La décision se fait sur le terrain et dans la tête. |
416 | 150.4000 | Mais pour les enfants, on est loin du mieux annoncé. |
425 | 163.5185 | Le 8 mai, de 12 à 17 heures, du 9 au 15 mai, de 10 à 19 heures et le 16 mai, de 10 à 17 heures. |
427 | 163.4444 | Ce soir là, mon équipe n'était pas bonne. |
427 | 138.6000 | Il m'avait dit qu'il était à mon service. |
436 | 76.8333 | Il fait très bien son travail et n'est pas en cause. |
442 | 180.0000 | Elle aura lieu cette année du 13 au 20 octobre. |
451 | 96.5455 | C'est pour la même raison qu'ils sont en Irak. |
454 | 187.0833 | La décision, difficile à prendre, a souvent du mal à se dire. |
456 | 174.2500 | Et qui dit nouveau programme dit nouvelle équipe. |
482 | 240.0000 | Ce jeudi après-midi, le départ va être donné. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II